Offres de poste
Stage M2 - 6 mois - Modélisation des actes de communication dans les documents audiovisuels
La plupart des interactions humaines se déroulent par le biais de conversations orales. Si ce mode d'interaction semble si naturel et aisé pour les humains, il reste un défi pour les modèles de traitement du langage oral, car la parole conversationnelle soulève des questions cruciales. Premièrement, les informations non verbales peuvent être essentielles à la compréhension d'un message. Par exemple, un visage souriant et une voix joyeuse peuvent aider à détecter l'ironie ou l'humour dans un message. Deuxièmement, l'ancrage visuel entre les participants est souvent nécessaire au cours d'une conversation pour intégrer la posture et la gestuelle, ainsi que les références au monde environnant. Par exemple, un locuteur peut parler d'un objet sur une table et le désigner comme tel en le dessinant avec sa main. Enfin, l'ancrage sémantique entre les participants d'une conversation pour établir une connaissance mutuelle est essentiel pour communiquer entre eux.
Dans ce contexte, le projet MINERAL vise à former un modèle de représentation conversationnelle multimodale pour les actes de communication et à étudier les structures communicatives de la conversation audiovisuelle.
Objectifs du stage
Dans le cadre de ce projet, nous proposons un stage de 5 à 6 mois axé sur la modélisation des actes de communication pour les dialogues de films et de séries télévisées. La première étape consistera à étendre une ontologie d'annotation existante pour les actes de communication, initialement conçue pour des corpus audio tels que Switchboard, afin de mieux capturer les informations multimodales. Cette extension intégrera des indices non verbaux tels que les expressions faciales, les gestes et l'ancrage visuel entre les interlocuteurs.
Une fois le cadre d'annotation établi, le stagiaire expérimentera des modèles de langage à grande échelle (MLH) pour automatiser le processus d'annotation. Cela impliquera la conception de stratégies d'incitation et le perfectionnement de modèles multimodaux tels que GPT-4V, Gemini ou LLaVA afin de générer des annotations semi-automatiques pour les dialogues audiovisuels. L'étude comparera différentes approches, notamment l'incitation à plusieurs coups et l'apprentissage par transfert, afin d'évaluer leur efficacité dans la reconnaissance des actes de communication dans différents contextes.
Conditions pratiques
Le stage sera financé à hauteur d'environ 600 euros par mois pour une durée de 5 ou 6 mois et se déroulera au LISN au sein de l'équipe LIPS. Ce stage pourra éventuellement être suivi d'un doctorat financé, en fonction des performances et de l'intérêt pour la poursuite des recherches dans ce domaine.
Qualifications requises :
- Master (M2) en informatique ou dans un domaine connexe.
- Expérience avec des frameworks d'apprentissage profond tels que Keras ou PyTorch.
- Une connaissance du traitement d'images serait un atout.
Déposer votre candidature
Pour postuler, déposer votre dossier composé d'un CV, d'une lettre de motivation et de vos notes de M1 et M2